查看原文
其他

为啥GPT-4那么聪明,原来有8个脑袋!一起回答你的prompt!- Ilya大神的小把戏,硅谷传疯了。。。

ai汤源 AI范儿 2023-09-14


图|汤源

文|汤源

OpenAI联合创始人&首席科学家Ilya在一次播客采访中


题记

又是AGI纪元前夜的一天,像往常一样一早5点准时醒来,一打开手机,时间线就被硅谷社区传开的一则关于GPT-4“参数/架构(size/architecture)”的消息刷屏了......

“硅谷社区的一则有关GPT-4的参数/架构消息截图”
What!?!? !... GPT-4有 “8” 个脑袋!!!...
对,虽然GPT-4基础参数量只有220B,但是由8个同样架构的models组成的混合架构,有8个不同训练数据集训练每个model of head。

▩难怪GPT-4那么早预训练好,而且那么聪明

不能不提的是,对于注意力一直在OpenAI“炼丹”的秘密配方的笔者,这个消息的prompt效用威力巨大:

第一时间的prompt输出就是:很聪明的做法,而不是简单的垒参数!

按照scaling law的曲线趋势,貌似参数量红利已经用的差不多了,尤其是和要投入的算力比,而且现在GPU一卡难求;

原来你prompt GPT-4一次,它有8个220B的各有千秋的大脑,算16次后给出输出?

难怪结果好这么多!!!

远超一众其它GPT,包括OpenAI自家175B参数的ChatGPT(GPT-3.5)。

Ilya的“直觉”简直了/:strong

这也验证了我心中一直以来的一个疑问:

GPT-4在ChatGPT推出后4个半月即发布,而且预训练结束是在这之前的6-8个月。所以在OpenAI内部,工程上采取了风险最小的做法,对于单个head来说,基本就是GPT-3的Transformer架构,参数量级从175B提升一点到220B,训练数据集上也做了拆分,针对每个head进行针对性的训练。

▩GPT工程上的创新,是科学更是直觉和妥协

我心中一直以来的另一个疑问就是:GPT-4的参数量级到底是多少?下一个版本的GPT-5又会是多少?

GPT-4的参数量级,之前一直隐约听说达到万亿级别(a trillion parameters)。这次算是解惑了:220B*8=1.76T,正好是GPT-3的10倍,并没有像GPT-1、2、3那样直接垒参数数量,工程上难度小产出效果确定性大,而且算力投入小得多;GPT-5会走哪条路线?16*220B?还是1.76T*8?

播客(podcast)中George用了一个词:little trick(Mixture of Expert),从大模型参数量/算力/数据集的Scaling Law铁三角来讲,总参数量确实是提升了1个数量级,差不多10倍,但是scaling-out的横向把1个model扩展成8个,而不是直接scaling-up到1.76T的量级。这避免了其中的工程上的试错、训练算力资源扩展难度的幂级上升,大大赢得了GPT版本迭代与服务推出上的战略时间与空间。

▩GPT-4确实比其它都好用但贵(1k tokens差不多是chatGPT的15倍)

这样的混合模型(Mixture models),正如George所说,之前也听Ilya说过,LLM在Scaling Law曲线上的easy阶段红利已经吃完了,受到算力和未来商业化的约束,某种意义上是选择了一种折衷的路径。

播客(podcast)中George提到了每一次prompt,GPT-4内部会要做16次推理,其中工程原理有待群友智慧,但确实也解释了为啥GPT-4的每1k tokens定价要比GPT-3.5要贵差不多15-20倍。因为内部运算耗费的算力确实同等倍数的增加了。

注:关于为啥GPT-3.5定价0.002 1k tokens,笔者之前在另一篇公众号文章中有解读。

▩GPT-4
凭借广泛的通用知识和领域专业知识,GPT-4可以用自然语言遵循复杂的指令,准确地解决难题。

Model Prompt Completion

8K context        $0.03 / 1K tokens          $0.06 / 1K tokens

32K context      $0.06 / 1K tokens           $0.12 / 1K tokens 

▩ChatGPT
模型针对对话进行了优化。gpt-3.5-turbo的性能与Davinci不相上下。

Model                    Usage                            

gpt-3.5-turbo        $0.002 / 1K tokens       




△附:GPT不同版本1k tokens定价,来自OpenAI官网

▩GPT-4可以这样玩,那社区在LLaMA上是不是也可以?

这个消息显然大大prompt了开源LLaMA社区的精英,议论纷纷:

"我 (终结者)会回来的,准备调校27 x 65B LLaMA模型,与GPT-4竞争。"

lol,果然马上就有人跳出来说,我搞27个脑袋的65B LLaMA是不是就可以干的过GPT-4 8个脑袋呢?

笔者脑补了一下画面,加上国内的千模大战一并加入,一时间全球“炼丹”界,果然可以期待的是“千头”GPT大混战啊......

附录

AI²Paradigm v1-v3范式迭代
▩大模型炼丹(pre-training) (v1. AIGC)
▩大模型挖矿(prompting) (v1.AIGC)
▩大模型蒸馏(distillation) (v2. Models Anywhere)
▩大模型智能体(promptless) (v3. Intelligent Agents)


△附:AI²Paradigm v1-v3范式迭代,详情请阅读啥?“炼丹”、“挖矿”、“蒸馏”,还有”智能体“?-「AI范儿」一文厘清大模型范式创业投资与应用万象:AI²Paradigm


参考


-相关推文(笔者对于信源是否真实可靠不负任何责任)



END


扫码加群,

立变AI🍚!


AI范儿读者群


👇关注、标星哦~


那些prompt了我的,

是否也prompt了你...


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存